controlnet 的作者的最新项目 Omost - 利用 LLM 进行图像合成

Original renee创业狗 Renee 创业随笔

2024-10-09

controlnet 的作者最近推出了一个新的研究项目——Omost。

https://github.com/lllyasviel/Omost

Omost 旨在将大型语言模型（LLM）的编码能力转换为图像生成（更准确地说，是图像合成）能力。

Omost 的名字有两个含义：

Omost 提供了 LLM 模型，这些模型将通过 Omost 的虚拟 Canvas 代理编写代码来合成图像视觉内容。这个 Canvas 可以通过特定实现的图像生成器进行渲染，最终生成图像。

目前，作者提供了基于 Llama3 和 Phi3 变体的三种预训练 LLM 模型（具体模型说明请参见页面末尾的模型注释）。所有模型都经过以下数据混合训练：

通过这些预训练模型，用户可以高效地生成和合成图像内容。

可以在https://huggingface.co/spaces/lllyasviel/Omost 上运行 demo 来体验 Omost 的完整流程。

a dog and a cat

the dog is a Teddy dog

继续滑动看下一个

Renee 创业随笔

向上滑动看下一个